步骤三:引入数据

完成数据仓库的规划和数据源信息的配置后,您还需将您的源数据product表、customer表、orders表引入到项目中。本文将指导您如何将数据源的数据集成到您的创建的项目空间。

背景信息

product表、customer表、orders表的集成步骤相同,仅管道名称不同。本文以集成product表为例介绍如何将product表集成至项目。

重要

完成product表集成后,您还需参考本文集成customer表、orders表至项目。

步骤一:创建管道开发脚本

  1. 在Dataphin首页的顶部菜单栏中,选择研发 > 数据集成

  2. 在顶部菜单栏中选择项目(Prod-Dev模式还需选择环境)。

  3. 在左侧导航栏中选择集成 > 离线集成。在右侧离线集成列表中单击image图标,选择离线管道

  4. 创建离线管道对话框中,配置参数。

    参数

    描述

    管道名称

    输入产品表集成

    调度类型

    选择周期性节点

    描述(非必填)

    可以填写对离线单条管道的简单描述。

    选择目录(非必选)

    默认目录为离线管道

  5. 单击确定,完成创建离线管道。

    离线管道参数配置详情请参见通过单条管道创建集成任务

步骤二:开发离线管道脚本

  1. 在离线单条管道开发页面,单击组件库

  2. 输入组件中选择MySQL输入组件,并将其拖动至管道画布中。

  3. 输出组件中选择MaxCompute输出组件,并将其拖动至管道画布中。

  4. 连接MySQL输入组件MaxCompute输出组件

    image.png

  5. 分别单击输入和输出组件的image.png图标,配置MySQL输入组件MaxCompute输出组件

    • MySQL输入组件

      参数

      描述

      步骤名称

      使用默认值。

      数据源

      选择步骤二中已创建的数据源:dataphin_tutorial

      来源表量

      选择单表

      选择来源表product

      切分键(非必选)

      无需添加切分键。

      输入过滤(非必填)

      无需添加过滤条件。

      输出字段

      使用默认输出字段。

    • MaxCompute输出组件

      参数

      描述

      步骤名称

      使用默认名称。

      数据源

      选择项目 > dataphin_tutorial(dataphin_tutorial),即当前项目。

      创建目标表:

      1. 单击一键生成目标表

      2. 在代码输入框中,使用默认建表语句,无需修改。

      3. 单击新建

      加载策略

      选择追加数据

      映射关系

      在映射关系中选择同名映射

  6. 单击确定,完成输入和输出组件的配置。

    输入输出组件的参数配置详情请参见配置MySQL输入组件配置MaxCompute输出组件

步骤三:配置管道脚本的调度参数

  1. 单击当前离线管道开发画布菜单栏中的调度配置按钮,进行调度配置。

  2. 调度依赖区域,配置上游依赖,其他区域参数保持默认。

    上游依赖区域中,单击添加根节点,作为当前任务的上游依赖。

    离线集成任务属性配置详情请参见配置离线管道任务属性

步骤四:提交和发布离线单条管道脚本

  1. 单击当前离线管道开发画布菜单栏中的提交图标,提交管道脚本。

  2. 在对话框中查看提交内容前置检查信息,并输入提交备注

  3. 单击确定并提交

    提交时,Dataphin将进行任务的血缘解析及提交检查。更多信息,请参见集成任务提交说明